aliases:
- "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits"
created_date: 2024-12-2
modified_date: 2024-12-3
2024-12-2
要点:
此外,BitNetb1.58 还提供了两个额外的优势。首先,由于模型权重中包含 0,使其能够显式支持特征过滤,从而显著提高了 1-bitLLMs 的性能,因此其建模能力更强。其次,我们的实验表明,从 3B 规模开始,使用相同的配置 (例如,模型大小、训练令牌等),BitNetb1.58 在困惑度和最终任务性能方面可以与全精度 (即 FP16) 基线相匹配。
BitNetb1.58 基于 BitNet 架构,该架构是一个 Transformer, 用 BitLinear 替换了 nn.Linear。它是从头开始训练的,具有 1.58 位权重和 8 位激活。